Funzionamento del processo di OCR

Il documento viene letto dallo scanner. Lo scanner funge da ìocchioî del computer, a cui invia líimmagine in forma digitale. A questo punto, líimmagine scansionata non Ë altro che un ammasso di punti (ìpixelsî) su sfondo bianco.
Le routine binarie intelligenti convertono le immagini a colori e la scala dei grigi in immagini in bianco e nero.
Il software OCR estrae le informazioni di testo da questi pixel: riconosce le forme e assegna i caratteri.
La segmentazione delle righe consiste nello smembrare una pagina di testo in tutte le sue righe. Questa operazione riconosce anche le righe inclinate, líinterlinea e le capolettere e separa le righe che si toccano.
La segmentazione delle parole isola una parola dallíaltra.
La segmentazione dei caratteri separa le varie lettere di una parola. Se i caratteri sono della stessa larghezza (passo fisso), questa operazione Ë semplice. Il problema si presenta quando líampiezza delle lettere dipende dalla loro forma (passo proporzionale), in caso di spaziature intercarattere e quando vengono utilizzati font a matrice di punti.
Il riconoscimento dei caratteri estrae le caratteristiche di ciascuna forma isolata ed assegna un simbolo. I tre stadi pi˘ importanti sono la fase di autoapprendimento, líanalisi topologica e la fase interattiva opzionale. Durante il riconoscimento, vengono utilizzate conoscenze linguistiche per convalidare le soluzioni corrette ed individuare quelle dubbie.